# PRÁCTICA 3<sup>a</sup> "Planificación estática de instrucciones"

Arquitectura e Ingeniería de Computadores (3º curso) E.T.S. de Ingeniería Informática (ETSINF) Dpto. de Informática de Sistemas y Computadores (DISCA)

# **Objetivos:**

Conocer, comprender y aplicar algunas técnicas de gestión estática de instrucciones.

### Desarrollo:

### El simulador del procesador MIPS con instrucciones multiciclo

El simulador **mips-m** permite ejecutar programas escritos en lenguaje ensamblador del MIPS. Soporta un subconjunto del juego de instrucciones, incluyendo instrucciones enteras y de coma flotante. En el anexo se detallan las instrucciones soportadas.

El procesador simulado no incorpora planificación dinámica de instrucciones. Para resolver los riesgos de datos inserta ciclos de parada o bien aplica la técnica de la anticipación o cortocircuito, con inserción de ciclos de parada en caso necesario. Los riesgos de control se pueden resolver insertando ciclos de parada, con *predict-not-taken* o bien mediante salto retardado, con *delay-slot* de una, dos o tres instrucciones. Para la ejecución de operaciones multiciclo, dispone de una unidad de carga/almacenamiento, un operador de multiplicación, un operador de suma y un operador de comparación. Todos ellos están segmentados. Se puede configurar la latencia de cada uno de los operadores.

El simulador se ejecuta desde la línea de órdenes:

#### donde:

- <resultados> indica cómo se ofrecerá el resultado de la simulación. Hay tres opciones:
  - tiempo: Muestra el tiempo de ejecución en el terminal.
  - final: Muestra el tiempo de ejecución, los registros y el contenido de la memoria tras la ejecución en el terminal.
  - html(\*): Genera varios archivos html con el estado de la ejecución ciclo a ciclo así como los resultados finales. Los resultados se visualizan abriendo en un navegador el archivo index.html. Esta es la opción por defecto.
- <ri><riesgos de datos> indica cómo se resuelven los riesgos de datos. Hay tres opciones:

- n: No hay lógica para resolver los riesgos de datos.
- p: Se resuelven los riesgos de datos insertando ciclos de parada.
- c(\*): Se resuelven los riesgos de datos mediante la técnica del cortocircuito, insertando asímismo los ciclos de parada necesarios. Esta es la opción por defecto.
- <ri><riesgos de control> indica cómo se resuelven los riesgos de control. Hay cinco opciones:
  - p: Se resuelven los riesgos de control insertando tres ciclos de parada.
  - t(\*): Se resuelven los riesgos de control mediante *predict-not-taken*, insertando tres ciclos de parada si el salto es efectivo. Esta es la opción por defecto.
  - **3**: Se resuelven los riesgos de control mediante la técnica del salto retardado, con valor del *delay-slot*=3.
  - 2: Se resuelven los riesgos de control mediante la técnica del salto retardado, con valor del *delay-slot=*2.
  - 1: Se resuelven los riesgos de control mediante la técnica del salto retardado, con valor del *delay-slot=*1.
- <lat> indica la latencia del operador segmentado de coma flotante multiciclo. Debe ser de al menos 2 ciclos:
  - *l*: Operador de carga/almacenamento. Por defecto, 2 ciclos.
  - *a*: Operador de suma/resta. Por defecto, 4 ciclos.
  - *m*: Operador de multiplicación/división. Por defecto, 7 ciclos.
  - *k*: Operador de comparación. Por defecto, 4 ciclos.
- <archivo.s> es el nombre del archivo que contiene el código en ensamblador.

## Ejemplo de programa para MIPS

A continuación, se muestra el código ensamblador correspondiente a un bucle que realiza la suma de un valor escalar a un vector almacenado en la memoria ( $\vec{Z}=a+\vec{Y}$ , bucle DAPY):

```
dadd r1,r1,#8
dadd r2,r2,#8
dsub r4,r3,r1
bnez r4,loop
nop ; delay slot, si procede
trap #0 ; Fin de programa
```

Este programa está almacenado en el fichero dapy.s. Lo lanzaríamos a ejecución mostrando resultados con archivos html y resolviendo riesgos de datos y de control mediante cortocircuito y *predict-not-taken* con la orden siguiente:

```
mips-m -s html -d c -c t -f dapy.s
```

Seguidamente, abriremos el archivo index.html mediante el navegador, el cual muestra la configuración del procesador y el contenido de la memoria inicialmente, así como unos enlaces que permiten navegar por los resultados:

- <u>INICIO</u>. Muestra la configuración del procesador y el contenido inicial de la memoria.
- <u>FINAL</u>. Muestra los resultados de prestaciones tras la ejecución, la configuración del procesador y el contenido final de la memoria. Comprobar el contenido final de la memoria permite verificar que el programa funciona correctamente.
- Estado. Muestra el diagrama instrucciones—tiempo correspondiente a la ejecución del programa, así como el estado de la unidad de ejecución en un ciclo dado, indicando qué instrucción ocupa cada una de las etapas del procesador. Cada instrucción se muestra en diferente color. Finalmente, muestra el contenido de los registros y de la memoria al final del ciclo analizado. En caso de operaciones de lectura o escritura, se utiliza como color de fondo en el registro o posición de memoria accedido el correspondiente la instrucción implicada. En esta página tenemos enlaces a las páginas de estado correspondientes a 1, 5 o 10 ciclos anteriores o posteriores al actual.

La Figura 1 muestra el contenido del archivo *index.html* generado. Se muestran los parámetros de configuración de procesador y el contenido inicial de la zona de datos y de instrucciones de la memoria, respectivamente.

Si seguimos el enlace <u>FINAL</u> se abrirá el archivo *final.html*. La Figura 2 muestra su contenido para nuestro ejemplo. En primer lugar, se muestran los resultados de prestaciones de la ejecución: tiempo de ejecución, instrucciones ejecutadas, CPI, operaciones en coma flotante y operaciones en coma flotante por ciclo. Seguidamente, se recuerda la configuración del procesador y se muestra el contenido final de los registros y la zona de datos y de instrucciones de la memoria

Si seguimos el enlace <u>Estado</u> se abrirá el archivo *resultXXX.html*, donde XXX representa el ciclo de ejecución, comenzando en "001". La figura 3 muestra su contenido para el ciclo 23 de nuestro ejemplo. En primer lugar, se muestran los enlaces a las páginas *index.html* y *final.html*, así como enlaces a los archivos con el estado existente hace 10



Figura 1: Contenido del archivo index.html

([-10]), ([-5]) 5 ciclos , el ciclo anterior ([-1]), al ciclo siguiente ([+1]), dentro de 5 ciclos ([+5]) y dentro de 10 ciclos ([+5]). También se muestra el diagrama instrucciones—tiempo hasta el ciclo actual (Crono). A continuación se muestran las etapas de la unidad de ejecución, indicando qué instrucción ocupa cada una de ellas. Las etapas vacías contienen el equivalente a una instrucción que no hace nada (-nop-). Como hay banco de registros entero y de coma flotante separados, en un ciclo dado puede haber hasta una instrucción entera y otra de coma flotante en la etapa WB. También se muestran las señales de control que se activarían como consecuencia de la detección de riesgos y aplicación de cortocircuitos. A continuación se muestra el contenido de los registros enteros (R0 a R31) y de coma flotante (F0 a F31), respectivamente, más el registro de estado de coma flotante (FPSR). Finalmente, se muestra el contenido de la memoria de datos. Los archivos con el estado del procesador permiten ejecutar paso a paso el programa, permitiendo, de esta forma, depurar el código cuando escribamos programas en ensamblador MIPS.

Tras ejecutar el programa, comprobar que se ha almacenado en la dirección definida por la etiqueta z un vector de 64 datos, con el contenido esperado. Anotar el tiempo de ejecución del programa y los CPI obtenidos.



Figura 2: Contenido del archivo final.html

# Modificación del programa aplicando planificación estática de instrucciones

### 1. Loop unrolling

Básicamente, el *loop unrolling* replica el código base del bucle varias veces, disminuyendo el número de iteraciones realizadas.

En nuestro ejemplo, como el máximo número de ciclos de parada necesario para resolver el riego RAW producido es de tres ciclos, el código del bucle  $\vec{Z} = a + \vec{Y}$  debe ser replicado 4 veces, y se muestra seguidamente. Nótese que se han renombrado algunos registros para eliminar dependencias de nombre:



Figura 3: Contenido del archivo result023.html

```
add.d f8, f0, f6
s.d f8,8(r2)
1.d f10,16(r1)
add.d f12,f0,f10
s.d f12, 16(r2)
1.d f14,24(r1)
add.d f16, f0, f14
s.d f16,24(r2)
dadd r1, r1, #32
dadd r2, r2, #32
dsub r4, r3, r1
bnez r4, loop
nop
                  ; delay slot, si procede
trap #0
                  ; Fin de programa
```

Este programa está almacenado en el fichero dapyu.s. Ejecutamos este nuevo programa:

```
mips-m -s html -d c -c t -f dapyu.s
```

Comprueba la corrección del resultado obtenido y anotando su tiempo de ejecución. Calcular los CPI obtenidos. Cuantifica la mejora frente al programa original.

Ese código puede modificarse fácilmente para eliminar todos los riesgos de datos, y rellenar el *delay slot* con una instrucción útil:

```
start:
dadd r1,r0,y ; r1 contiene la direccion de y
```

```
dadd r2, r0, z
                          ; r2 contiene la direccion de z
        1.d f0, a(r0)
                          ; f0 contiene a
        dadd r3, r1, #512 ; 64 elementos son 512 bytes
loop:
        1.d f2,0(r1)
        1.d f6,8(r1)
        1.d f10, 16(r1)
        1.d f14,24(r1)
        add.d f4,f0,f2
        add.d f8, f0, f6
        add.d f12,f0,f10
        add.d f16, f0, f14
        s.d f4,0(r2)
        s.d. f8, 8(r2)
        s.d f12, 16(r2)
        s.d f16,24(r2)
        dadd r1, r1, #32
        dsub r4, r3, r1
        bnez r4, loop
        dadd r2, r2, #32
        trap #0
                          ; Fin de programa
```

Este programa está almacenado en el fichero dapyuo.s. Lo ejecutamos, teniendo en cuenta que resolvemos los riesgos de control mediante salto retardado con *branch delay slot* de una instrucción:

```
mips-m -s html -d c -c 1 -f dapyuo.s
```

Comprueba la corrección del resultado obtenido y anotando su tiempo de ejecución. Calcular los CPI obtenidos. Cuantifica la mejora frente al programa original.

### 2. Software pipelining.

Básicamente, el *software pipelining* sustituye el bucle original por otro nuevo en el que las instrucciones que se ejecutan pertenecen a iteraciones distintas del bucle original, con lo que se eliminan los riesgos de datos.

El código del bucle  $\vec{Z} = a + \vec{Y}$  modificado es el siguiente:

```
loop:
    s.d f4, 0(r2)
    add.d f4,f0,f2
    l.d f2,0(r1)
    dadd r1,r1,#8
    dsub r4,r3,r1
    bnez r4,loop
    dadd r2,r2,#8

resto:
    s.d f4, 0(r2)
    add.d f4,f0,f2
    s.d f4, 8(r2)

trap #0    ; Fin de programa
```

Este programa está almacenado en el fichero dapysp.s. Lo ejecutamos:

```
mips-m -s html -d c -c 1 -f dapysp.s
```

Comprueba la corrección del resultado obtenido y anotando su tiempo de ejecución. Calcular los CPI obtenidos. Cuantifica la mejora frente al programa original.

### Desarrollo de un nuevo programa.

En esta parte de la práctica supondremos que las latencias del sumador y multiplicador son de 2 y 4 ciclos, respectivamente (opciones –a 2 –m 4 al lanzar el simulador).

1. Escribe el código MIPS convencional para ejecutar la operación  $\vec{Z}=a*\vec{X}+\vec{Y}$  (bucle DAXPY), siendo el tamaño de los vectores a procesar de 64 números en coma flotante de doble precisión.

Puedes partir del programa almacenado en el fichero daxpy.s.

IMPORTANTE: Si hay algún error del tipo "etiqueta indefinida o syntax error", lo más probable es que se deba a alguno de los errores mencionados en el Anexo A de este boletín.

Ejecuta el programa en el simulador. No olvides indicar al simulador el método para resolver los riesgos (opciones -d c -c 1) y las latencias de los operadores. Evalúa las prestaciones alcanzadas.

2. Aplica la técnica del *loop unrolling* al código desarrollado, reorganizándolo, en su caso, también para reducir los ciclos de parada insertados.

Puedes partir del programa realizado en el apartado a), copiándolo previamente a otro archivo (por ejemplo daxpyu.s). Escribe el nuevo código y ejecútalo. No olvides indicar al simulador el método para resolver los riesgos y las latencias de los operadores. Evalúa las prestaciones alcanzadas, comparándolas con las de la versión base.

¿Se han eliminado todos los ciclos de parada? En caso negativo, explica cuál es la causa.

# Subconjunto de instrucciones MIPS que soporta el simulador

Carga/almacenamiento

| ld Rx, desp(Ry) |
|-----------------|
| sd Rz, desp(Ry) |

Aritméticas, lógicas y de desplazamiento

| dadd Rx, Ry, Rz | daddi Rx, Ry, Imm |
|-----------------|-------------------|
| dsub Rx, Ry, Rz | dsubi Rx, Ry, Imm |
| and Rx, Ry, Rz  | andi Rx, Ry, Imm  |
| or Rx, Ry, Rz   | ori Rx, Ry, Imm   |
| xor Rx, Ry, Rz  | xori Rx, Ry, Imm  |
| dsra Rx, Ry, Rz | dsra Rx, Ry, Imm  |
| dsll Rx, Ry, Rz | dsll Rx, Ry, Imm  |
| dsrl Rx, Ry, Rz | dsrl Rx, Ry, Imm  |

■ Comparación:

| seq Rx, Ry, Rz | seq Rx, Ry, Imm |
|----------------|-----------------|
| sne Rx, Ry, Rz | sne Rx, Ry, Imm |
| sgt Rx, Ry, Rz | sgt Rx, Ry, Imm |
| slt Rx, Ry, Rz | slt Rx, Ry, Imm |
| sge Rx, Ry, Rz | sge Rx, Ry, Imm |
| sle Rx, Ry, Rz | sle Rx, Ry, Imm |

Salto condicional

| bnez Ry, Desp | bc1t Desp |
|---------------|-----------|
| beqz Ry, Desp | bc1f Desp |

■ Carga/almacenamiento en coma flotante

```
l.d Fx, desp(Ry)
s.d Fz, desp(Ry)
```

Aritmética en coma flotante

■ Comparacion en coma flotante

| c.eq.d Fy, Fz |
|---------------|
| c.ne.d Fy, Fz |
| c.lt.d Fy, Fz |
| c.le.d Fy, Fz |
| c.gt.d Fy, Fz |
| c.ge.d Fy, Fz |

Otras



### Anexo A

Los errores más comunes son:

- El fichero se ha editado en Windows e incluye retornos de carro '\r' que se pueden eliminar con el comando: tr -d "\r" < fichero\_original > fichero\_sin\_r
- Falta .data en el código.
- Alguna etiqueta está duplicada.
- Para cargar datos en coma flotante de doble precisión, la instrucción correcta es *l.d* (por ejemplo *ld* es incorrecta en este caso).
- Para sumar enteros del tipo dword, la instrucción correcta es dadd (por ejemplo add es incorrecta en este caso).
- Para sumar datos en coma flotante de doble precisión, la instrucción correcta es *add.d* (por ejemplo *add* es incorrecta en este caso).
- Para restar enteros del tipo *dword*, la instrucción correcta es *dsub* (por ejemplo *sub* es incorrecta en este caso).
- Para multiplicar datos en coma flotante de doble precisión, la instrucción correcta es *mul.d* (por ejemplo *mult* es incorrecta en este caso).
- Para almacenar datos en coma flotante de doble precisión, la instrucción correcta es s.d (por ejemplo sd es incorrecta en este caso).